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in fish species using machine learning 


Resumen 

Los bifenilos policlorados (PCBs) son contaminantes persistentes que afectan 
enormemente a los ecosistemas marinos. Utilizando técnicas de aprendizaje de 
máquina, se construyeron modelos de relación cuantitativa estructura-actividad 
(RCEA) para predecir el factor de bioconcentración (BCF) de los PCBs. Estos modelos 
se construyeron a partir de descriptores topográficos 2D y 3D calculados para la 
estructura molecular optimizada en el nivel de mecánica molecular. Después de 
analizar sus parámetros estadísticos, se determinó que dos modelos son bastante 
robustos para la predicción de logBCF. Los modelos seleccionados fueron: M_4_LR 
construido con dos descriptores moleculares y presenta valores de R'*= 0,9154, Q? ¿¿= 
0,8944, y Q”, ,= 0,9119, y M_13 construido con cuatro descriptores moleculares y 
presenta valores de R*= 0,9375, Q” ¿¿= 0,9155, y Q”, ,= 0,844. Los dos modelos pasaron 
la doble fase de validación y cumplieron con los criterios de la prueba de Tropsha. 
Esto implica que las predicciones para el logBCF fueron bastante precisas tal como se 
muestra en los resultados del presente estudio. 


Palabras clave: Regresión lineal, PCBs, descriptores moleculares, mecánica molecular, 
especies marinas. 


Abstract 

Polychlorinated biphenyls (PCBs) are persistent pollutants that greatly affect marine 
ecosystems. Machine learning techniques were used to build quantitative structure 
activity-relationship (OSAR) models that predict PCBs' bioconcentration factor (BCF). 
These models were built from topographic 2D and 3D descriptors calculated for the 
molecular structures optimized at molecular mechanics level of theory. After analyzing 
their statistical parameters, it was determined that two models are robust enough 
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for predicting logBCF. The selected models were: M_4_LR, built with two molecular 
descriptors and showed values ofR*= 0.9154, Q? ¿= 0.8944, y Q”, =0,9119, and M_13, 
built with four molecular descriptors and showed values of R?= 0.9375, Q? ¿¿= 0.9155, 
y Q?, = 0.844, Both models passed the double validation phase, and they satisfied 
the criteria from Tropsha's test. This implies that predictions for logBCF were quite 
accurate, as is showed in the results from the present study. 


Keywords: Linear regression, PCBs, molecular descriptors, molecular mechanics, marine 
species 


INTRODUCCIÓN 


En los últimos años, los bifenilos policlorados (PCBs) han sido estudiados por los 
investigadores debido a sus repercusiones negativas en la salud debido a su incremento 
acelerado en el ambiente [1-3]. Los PCBs son un grupo de contaminantes orgánicos 
cuya estabilidad fisicoquímica les permiten resistir en el medio ambiente por un 
largo tiempo incluso en diferentes condiciones ambientales [3-8]. A pesar de que 
estos compuestos han sido sujetos a prohibiciones en muchos países debido a sus 
efectos adversos, los PCBs siguen presentes en los ecosistemas acuáticos [1,5,9-12]. La 
naturaleza hidrofóbica de los PCBs les permite sedimentar y formar reservorios en las 
profundidades de los cuerpos de agua donde se encuentran las poblaciones de corales, 
por esta razón, algunas especies de peces consumen directamente estos químicos 
[5,12]. En consecuencia, la cadena alimenticia submarina se ve afectada, y las personas 
se exponen a estos compuestos tóxicos principalmente mediante el consumo de 
especies acuáticas [1,9,12]. Después de la ingestión, los PCBs tienden a acumularse en 
los tejidos adiposos, y esto conlleva riesgos carcinógenos, reproductivos y genéticos 
[8,10,12]. Los PCBs son un problema tanto para los ecosistemas marinos como para la 
población mundial, por lo tanto, es de gran importancia estudiar la bioconcentración 
de los mismos. 


La bioconcentración es la capacidad de un individuo de acumular una sustancia del 
ecosistema en sus tejidos [13-15]. En general, se puede cuantificar esta propiedad a 
ravés del factor de bioconcentración (BCF). El BCF es la proporción entre la concentración 
de un contaminante en la especie y la concentración del contaminante en el ambiente 
16]. Este parámetro es de gran importancia para evaluar el riesgo potencial de un 
compuesto tóxico [8]. 


Los estudios de bioconcentración en especies acuáticas se realizan con el objetivo de 
extraer información sobre la cantidad de componentes tóxicos del agua que puede 
absorber directamente un organismo [17]. Sin embargo, la determinación del BCF a 
ravés de procedimientos experimentales presenta costos altos en cuanto a tiempo y 
dinero [4,8,11]. En consecuencia, algunos estudios teóricos han sido llevados a cabo 
para predecir características toxicológicas de las moléculas a través de modelos de 
relación cuantitativa estructura-actividad (RCEA)[2]. 
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RCEA es una técnica muy utilizada 


Moreno / Mora (2021) 


para establecer relaciones entre las propiedades 


fisicoquímicas de sustancias y sus respectivas actividades biológicas [181]. El objetivo 


principal de un estudio RCEA es desar 


rollar modelos matemáticos utilizando descriptores 


moleculares para predecir propiedades biológicas de interés [19]. Los descriptores 
moleculares son representaciones matemáticas de una molécula obtenidos a partir de 
su estructura, a través de algoritmos computacionales [20]. Estos descriptores se clasifican 
en: una dimensión (1D), dos dimensiones (2D), y tres dimensiones (3D) de acuerdo con 
la complejidad de la estructura molecular optimizada [20]. Además, los descriptores se 
pueden calcular para diferentes niveles de teoría, siendo los métodos de mecánica 
molecular los que requieren menor cantidad de recursos computacionales [21]. 


La mecánica molecular (MM) es un nivel de teoría en el que una molécula se aproxima al 


comportamiento que tendrían bolas 


unidas por resortes [22]. El principio fundamental 


de la MM es expresar la energía potencial de una molécula en función de los términos 


que corresponden al estiramiento 


de enlaces, al doblamiento de los ángulos de 


enlace, a los ángulos diedros, y a las interacciones no enlazantes [22]. En general, las 


aproximaciones de la MM son bas 
los parámetros adecuados; sin emb 


ante buenas para la obtención de energías con 
argo, debido a que los cálculos se realizan en el 


estado basal de las moléculas, las geometrías no se adaptan bien cuando se estudian 


mecanismos en donde se involucran 


el rompimiento y la formación de enlaces [21]. 


En el presente trabajo, se presenta un estudio que se enfoca en la posible correlación 


que existe entre la estructura de los b 
de estos compuestos en especies de 


ifenilos policlorados y el factor de bioconcentración 


peces. Para cumplir con este objetivo, se utilizaron 


descriptores topográficos 2D y 3D obtenidos a partir de las estructuras optimizadas en 


el nivel MM, y algoritmos de aprendi 


Zaje de máquina para la búsqueda de los posibles 


modelos. Estos modelos se validaron estadísticamente con la intención de evaluar la 


capacidad predictiva que presentan 


MATERIALES Y MÉTODOS 


Preparación de los datos 


os mismos. 


Un conjunto de 58 compuestos cuya estructura se muestra en la Figura 1 fue utilizado 


para el modelaje realizado en el p 


resente estudio. Las diferencias presentes en las 


estructuras en términos de la cantidad y posición de átomos de cloro se encuentran 
enlistadas en la Tabla 1 [11]. Una vez hecho esto, se representaron las estructuras 


moleculares 3D y 2D. Las estructuras 


3D de las moléculas se optimizaron en el nivel de 


teoría de UFF (Universal Force Field), empleando el programa RDKit [23]. Posteriormente, 


se calcularon 89 descriptores 3D y 7 
y QuBiLs-MAS, respectivamente [24] 


91 descriptores 2D con el software QuBILS-MIDAS 
. Los valores para el logBCF,, se obtuvieron 


perimental 


de la literatura para especies variadas de peces (guppies, pececillo de cabeza gorda, 
trucha arcoíris y pez luna de agallas azules) [25-32]. Finalmente, se empezó el modelado 


utilizando Weka 3.8.0 y MATLAB R201 
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Figura 1. Estructura general para el bifenilo y sus derivados clorados. 


Tabla 1. Compuestos de estudio junto su numeración (S.N), CAS, radicales sustituidos con cloro, y BCF 


experimental. 

S.N. CAS NO Rn con Cl logBCFexp 
1 92-52-4 z 2,64 
2 2051-62-9 R? 27) 
3 13029-08-8 R!,Ré 3,38 
4 16605-91-7 RR? 4,111 
5 25569-80-6 RR” 3,8 
6 33284-50-3 RR? 5109 
7 34883-43-7 R!,R? 30/ 
8 34883-39-1 RR? 3,89 
9 34883-41-5 R3R* 3,78 
10 2050-68-2 R3Ró 3,28 
1 3/7680-65-2 R!,R1R? 4,111 
2 IOIZ2S7ES RRE 4,2 
3 15862-07-4 RI R3,R? 4,26 
4 16606-02-3 RI R1 R$ 4,23 
E) 38444-93-8 RI RY,R>,R? 4,23 
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44 


45 


Relación cuantitativa estructura actividad del factor de bioconcentración de los bifenilos policlorados 


CAS NO 
41464-39-5 
2437-79-8 
70362-47-9 
41464-40-8 
35693-99-3 
15968-05-5 
52663-58-8 
32598-11-1 
32598-13-3 
38380-02-8 
68194-07-0 
41464-51-1 
38380-01-7 
37680-73-2 
32598-14-4 
74472-35-8 
31508-00-6 
57465-28-8 
38380-07-3 
38411-22-2 
35694-06-5 
35065-28-2 
52712-04-6 
74472-41-6 
52663-63-5 
35065-27- 
33979-03-2 
38380-08-4 
69782-90-7 


32774-16-6 


DOL: https://doi.org/10.18272/aci.v1312.2275 


Rn con Cl 
RURSRORO 
RI,R?,RO,R? 
R,R?,RRO 
RI,R?,RO,R? 
RR ROA? 
RI R,Re,RY 
R!,R7R?,R? 
RI,R* RR? 


R2R3,R7,R* 


RRA 
RRA RR 
RAR RR 
RR, RERoR 
RAR RR 
RR RRA 
RR RR 


RI R3 Ri R7 R3 


R2R7R* RR? 
RI,RRERS,RARO 
RIRRRER RO 
RIRRERTRORÓ 
RRA RRE? 
RIRIRR* ROA? 
R!R7R1R,RERT 
RIRIRRRER? 
RR RARE, RE RO 
RR RRE, RERT 
RR RRRR 


RRA RRE R? 


RRA RRA? 
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S.N. CAS NO Rn con Cl logBCFexp 
46 38411-25-5 RRRRtREAA RO 5,8 
47 35065-29-3 R,R?,R?,R* RO, RR? 58 
48 60145-23-5 RRA? AEREA RO 5,8 
49 52663-69-1 RI,R?,R?,R?,RO,RR? 5,84 
50 52663-68-0 R,R,RR REA? RO 5,8 
51 74472-50-7 R,R?,R?,R,RO,R7,Ré 5,84 
7 35694-08-7 RIRARRA RARA? 5,81 
53 52663-78-2 RI)RR3,R*R,RORRO 5,92 
54 42740-50-1 RIRIRRRERRERO 5/92 
le] 68194-17-2 RIRR3,R*R, RRA? 5,88 
56 2136-99-4 RRE R?RERAR, RIO 5,82 
57 52663-77-1 RI RIRERR,RORARRY 5,71 
58 2051-24-3 RIRIRRRR,ARERA,R 5/44 


Modelado con técnicas de aprendizaje de máquina 


Weka 3.8.0 es un software libre que ofrece una amplia gama de técnicas de aprendizaje 
de máquina para realizar análisis de regresión y clasificación. Las técnicas de regresión 
que se emplearon en este estudio fueron Gaussian Processes (GP), IBK, Linear Regression 


(LR), Random Forest (R 


F) y SMOreg. GP es una técnica de regresión flexible en la que se 


utilizan procesos aleatorios no paramétricos para la construcción de un modelo clásico 
[35]. LR es un método en el que se construye un modelo a partir de las multiplicaciones 


entre las variables y su 
se miden y optimizan 
más cercana al set de 


respectivo coeficiente o “peso” [36]. IBK es una técnica en la que 
distancias para encontrar la instancia del set de entrenamiento 
prueba [36]. RF construye un modelo robusto generado a partir 


de la combinación de árboles de decisión, donde cada árbol depende de los valores de 
un vector aleatorio [36,37]. El método SMOreg construye un modelo a partir del ajuste 


de un set de entrenam 
al set de prueba [38]. 


En primer lugar, se rea 


iento, asignando mayor peso a las instancias que están más cerca 


izó una evaluación de atributos con los algoritmos mencionados 


anteriormente, utilizando cinco como el valor para la validación cruzada [39]. Este 
proceso se realizó con el objetivo de encontrar el mejor set de descriptores para el 


modelado, siendo sie 


e el número máximo de variables presentes en el modelo. Se 


denominó cada set de datos con el prefijo M_¡_¡donde ¡es el número del modelo y 


jes la abreviación de 


a técnica utilizada. Se utilizó Weka 3.8.0 y MATLAB R2017b para 


construir los modelos de regresión [33,34]. 
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Validación de los modelos 


La validación en cualquier estudio RCEA es de gran importancia ya que se mide 
la relevancia y la fiabilidad de los modelos matemáticos [40]. Existen dos tipos de 
validación para modelos RCEA: interna y externa. Una validación interna utiliza los datos 
que construyen el modelo, mientras que una validación externa utiliza un set de datos 
aparte [40]. Utilizando el algoritmo k-means de agrupación de datos de Minitab, los 
compuestos se dividieron en dos conjuntos: el set de entrenamiento (= 70-75%) y el 
set de prueba (= 25-30%), para los procesos de validación externa. Para la primera fase 
de validación se utilizó Weka 3.8.0 y se analizaron una serie de parámetros estadísticos. 


Para la segunda fase se utilizó OSARINS, software que se emplea en la validación 
y desarrollo de modelos de regresión lineal RCEA [41]. Se analizaron los siguientes 
parámetros estadísticos para determinar la fiabilidad de los modelos que pasaron la 
primera fase: 


1. La colinealidad de las variables se cuantifica con los valores de r de la matriz de 
correlación, por lo tanto, se esperan valores menores a 0,7 [42]. 


2. El valor del coeficiente de determinación (R*) como una evaluación general de 
modelo. 
3.  Elcoeficiente de validación cruzada para la prueba de dejar uno fuera (Q? ¿.), el coeficiente 


de validación cruzada para la prueba de dejar varios fuera (Q* ,,.) y el coeficiente de 
validación externa (Q?_ ) como medidores de la predictibilidad del modelo. 


ext 


4. Una prueba de scrambling en la que se cuantifica la aleatoriedad de las predicciones 
del modelo, por lo tanto, se espera valores bajos en los parámetros R?, y Q?.. 


5. Una prueba de Tropsha para la validación de dejar uno fuera y para la validación 
externa. 


RESULTADOS Y DISCUSIÓN 


La metodología del presente estudio está resumida en la Figura 2. En total, se 
construyeron 65 modelos a partir de los descriptores topográficos. Con ayuda de Weka 
3.8.0, se obtuvieron 30 modelos utilizando descriptores 3D y 30 modelos utilizando 
descriptores 2D, para los que cuales se tabuló el coeficiente de correlación (R). Los 
modelos y su respectivo coeficiente de determinación (R?) están tabulados en las Tablas 
2-3 para descriptores 2D y 3D, respectivamente. El Res un parámetro que funciona como 
indicador de la dependencia lineal entre las variables de un modelo matemático [43]. 
Utilizando como criterio valores altos para R?, se seleccionaron los 10 mejores modelos 
con descriptores 2D y los 10 mejores modelos con descriptores 3D para proceder con 
su validación. Los modelos y su valor de R? se muestran en las Tablas 4-5. Utilizando 
MATLAB R2017b, se construyeron 5 modelos de regresión lineal múltiple utilizando un 
algoritmo genético como método de selección de subconjuntos, y se pasó a la primera 
fase de validación. Los modelos y sus parámetros estadísticos se muestran en la Tabla 6. 
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Figura 2. Resumen de la metodología del presente estudio. 


Tabla 2. Tabla 51. Modelos construidos con Weka utilizando descriptores 2D 


Modelo Nombre R?_GP R?_IBK R?_LR R2RF— — R?2_SMOR 
1 IBK_BF_3 0,8493 0,9349 0,8407 0,8998 0,8405 
12 IBK_GS_3 0,8493 0,8791 0,8407 0,8998 0,8405 
3 LR_BF_7 0,8851 0,8174 0,9473 0,8316 0,9303 
_4 NES y 0,8851 0,8174 0,9473 0,8316 0,9303 
5 RF_BF_6 0,864 0,8066 0,8928 0,9493 0,8748 
_6 REF_GS_3 0,4946 0,7813 0,8503 0,9454 0,8429 


Tabla 3. Tabla 52. Modelos construidos con Weka utilizando descriptores 3D 


Modelo Nombre R?_GP R?_IBK R?_LR R2_RF.—— R?2_SMOR 


M_7 IBK_BF_2 0,5721 0,9038 0,8123 0,850 0,8256 
M_8 IBK_GS_2 0,5721 0,9038 0,8123 0,850 0,8256 
M_9 BES 0,7319 0,7656 0,9103 0,8254 0,9084 
M_10 LR_GS_5 0,7319 0,7656 0,9103 0,8254 0,9084 
M_11 RE_BF_7 0,6529 0,6997 0,847 0,911 0,7691 
M_12 RF_GS_6 0,6726 0,8481 0,8243 0,9139 0,7681 
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Tabla 4. Tabla 53. Coeficiente de correlación para los mejores 10 modelos construidos con Weka utilizando descriptores 2D 
avances Modelo R? 
Ingenierias 
M_5_RF 0,9493 
M_4_LR 0,9473 
M_6_RF 0,9454 
M_1_IBK 0,9349 
M_4_SMOR 0,9303 
M_1_RF 0,8998 
M_5_LR 0,8928 
M_3_GP 0,8851 
M_2_IBK 0,8791 
M_5_SMOR 0,8748 


Tabla 5. Tabla 54. Coeficiente de correlación para los mejores 10 modelos construidos con Weka utilizando descriptores 3D 


Modelo R? 
M_12_RF 0,9139 
M_11_RF 0,911 
M_9_LR 0,9103 
M_9_SMOR 0,9084 
M_7_IBK 0,9038 
M_7_RF 0,850 
M_12_IBK 0,848 
M_11_LR 0,847 
M_7_SMOR 0,8256 
M_9_RF 0,8254 


Tabla 6. Tabla 55. Coeficiente de correlación para los modelos construidos con MATLAB 


Modelo R? 
M_13 0,9346 
M_14 0,9329 
M_15 0,918 
M_16 0,9144 
M_17 0,9048 
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La primera fase de la validación se realizó en Weka 3.8.0 con el propósito de evaluar 
la linealidad, el error medio absoluto (MAE) y la predictibilidad de cada uno de los 
modelos construidos. Se entrenó cada modelo con un set de 42 moléculas y se evaluó 
su predictibilidad con un set de 16 moléculas. Los modelos, sus descriptores y su 
parámetros estadísticos se encuentran tabulados en la Tabla 7. A partir de los resultados, 
se escogieron los mejores 3 modelos: M_4_LR,M_13 y M_14. Los modelos seleccionados 
y sus parámetros estadísticos se muestran en la Tabla 8. 


Tabla 7. Tabla 56. Parámetros estadísticos de los modelos para la primera fase de validación 


oso Ra a] 


_1_IBK 0,9303 0,8654581 0,269 0,9652 0,/931611 0,1212 
AS 0,9266 0,8585876 0,2523 0,9334 0,8712356 0,2188 

2 IBK 0,9303 0,8654581 0,269 0,9652 0,/931611 0,1212 
SAG 0,9098 0,827736 0,2659 0,9562 0,9143184 0,1883 
4 LR 0,9663 0,9337357 0,1848 0,9757 0,/9519905 0,1468 
_4_SMOR 0,939 0,881721 0,2339 0,9686 0,938186 0,1691 
_5_LR 0,8954 0,8017412 0,2968 0,9505 0,9034503 0,1836 
¡ESERE 0,9379 0,8796564 0,2602 0,9857 0,9716045 0,1011 
M_5_SMOR 0,8775 0,7700063 0,3427 0,9528 0,9078278 0,1823 
GER 0,9262 0,8578464 0,2853 0,9729 0,9465344 0,1247 
M_7_IBK 0,8893 0,7908545 0,2882 0,9421 0,8875524 0,2063 
7 0,9052 0,819387 0,3013 0,9169 0,8407056 0,2299 
M_7_SMOR 0,8836 0,780749 0,3255 0,8828 0,7793358 0,292 
SAI 0,863 0,744769 0,3416 0,9566 0,9150836 0,1735 
_9_RFE 0,877 0,769129 0,3026 0,9019 0,8134236 0,2483 
M_9_SMOR 0,8409 0,7071128 0,3506 0959 0,919681 0,1909 
M_11_LR 0,7565 0,5722923 0,3717 0,9162 0,8394224 0,2787 
M_11_RF 0,8448 0,713687 0,3549 0,9707 0,9422585 0,1584 
M_12_IBK 0,7038 0,4953344 0,4177 0,8302 0,689232 0,3381 
M_12_RF 0,8842 0,/818096 0,3165 0,9715 0,9438123 0,1602 
113 0,9552 0,912407 0,2061 0,9456 0,8941594 0,2149 

14 0,9566 0,9150836 0,2063 0,9268 0,8589582 0,2624 

115 0,9484 0,8994626 0,9484 0,9434 0,8900036 0,236 

16 0,9503 0,9030701 0,2358 0,9501 0,90269 0,2024 

17 0,9446 0,8922692 0,245 0,9428 0,8888718 0,2073 
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Tabla 8. Valores de R2 y MAE para el set de entrenamiento y el set de prueba para los modelos seleccionados en 
la primera fase de validación. 
avances 
en ciencias e 
Ingenierias 
A Set de entrenamiento Set de prueba 
E 6 0,921 0,2058 0,9291 0,177 
M_13 5 0,9124 0,2061 0,8942 0,2149 
M_14 5) 0,9151 0,2063 0,859 0,2624 


Como primer paso de la fase de validación en OSARINS, se optimizaron los modelos con el 
propósito de eliminar descriptores colineales. Para este análisis, se evaluaron los valores de 
R de la matriz de correlación. Es de esperarse que estos valores se encuentren entre -0,7 y 
0,7 para asegurar que no existe colinealidad entre las variables [42]. La correlación de 0,42 
entre los descriptores de M_4_LR se encuentra dentro de este rango. Una vez eliminados 
los descriptores colineales, se descartó M_14 ya que se construye a partir de los mismos 
descriptores que M_13. Los resultados del análisis de correlación para los modelos están 
resumidos en la Figura 3, y la denominación de los descriptores se muestra en las Tablas 
9-10. La matriz de correlación para M_13 se encuentra en la Tabla 11. 


1,2 
1 
0,8 
506 
5 04 
0,2 
0 
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Figura 3. Resultados del análisis de correlación para los descriptores de los modelos de M_4_LRyM_13. 
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Tabla 9. Descriptores moleculares, parámetros estadísticos y ecuación para M_4_LR. 


avances 
en dencias e M_4_LR 
ingenierías 


S_B_AB Ci(2.0;2.0)_2_553_H_n_X_LGP[1;2;6]_c-m_MAS (A) 


N3_B_AB_nCi_2_MP4_H_n_T_LGP[4-6]_v-e_MAS (B) 


Tamaño 


2 0,9154 0,8944 0,8876 0,9119 0,0484 -0,115 


logBCF= 13.2595 + 0.1941A - 43.0019B 


Tabla 10. Descriptores moleculares, parámetros estadísticos y ecuación para M_13. 


M_13 


ES RA_Q AB nCi_2 M8_S51_T_LGP[5]_r_MID (C) 


AC[2]_5_Q_AB_nCi_2_M12_MPO_T_LGL[1-2]_p_MID (D) 


AC[1]_S_Q AB_nCi_2_M10_MPO_T_LGL[2-3]_v_MID (E) 


HM_Q_AB_nCi_2_M5_557_T_LGP[2]_e_MID (F) 


4 0,9375 0,9155 0,9087 0,844 0,0951 -0,1758 


logBCF= 0.7453 + 0.0699C + 0.4874D - 0.6705E + 13.0386F 


Tabla 11. Tabla 57. Matriz de correlación de los descriptores presentes en M_13 


M_13 


Descriptores 


ES_RA_Q_ AB _nCi_2 M8_SS1_T_LGP[5]_r_MID (C) 


AC[2]_5_O_AB_nCi_2_M12_MPO_T_LGL[1-2]_p_MID (D) 


AC[1]_S_Q_AB_nCi_2_M10_MPO_T_LGL[2-3]_v_MID (E) 


HM_Q_AB _nCi_2_M5_S57_T_LGP[2]_e_MID (F) 


0,43 -0,02 0,03 1 
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Los nombres de los descriptores topográficos corresponden al enfoque matemático que 
se aplicó sobre las estructuras moleculares 2D y 3D. Las letras minúsculas representan los 
atributos fisicoquímicos que se utilizaron para el cálculo de cada descriptor. Los modelos 
de las Tablas 9-10 están construidos en función de las siguientes propiedades: cargas 
ómicas (c), masa (m), volumen de Van der Waals (v), electronegatividad (e), Índice de 
refracción (r) y polarizabilidad (p). Las cargas atómicas (c) brindan información de la 
istribución de densidad electrónica en una molécula[44]. La masa (m) y el volumen 
de Van der Waals (v) son propiedades estructurales que indican las dimensiones de la 
molécula [42]. La electronegatividad (e) describe la atendencia de un átomo para atraer 
ectrones hacia sí mismo [45]. El Índice de refracción (r) y la polarizabilidad (p) están 
relacionados con la habilidad de distorsión de la nube electrónica de una especie [42,46] 


Dm 


o 


O 


Por un lado, c, e, m, y v juegan un papel importante en la construcción de M_4_L 
Si bien B tiene un coeficiente más grande, A tiene mayor impacto que B ya qu 
presenta mayor variabilidad. Esto sugiere que la distribución de la carga y el número d 
sustituyentes clorados influyen en el cálculo del logBCF Por otro lado, r, p, v, y e juega 
un rol importante en la construcción de M_13, F tiene el coeficiente más grande, s 
embargo, € cuenta con mayor impacto debido a su variabilidad. F y C son descriptores 
afectados principalmente por el número de átomos de cloro, debido al aumento de 
electronegatividad y a una mejor distribución de la carga. De manera general, se puede 
establecer una relación directa entre el número de átomos de cloro y el logBCF 


5>500>% 


experimental" 


El segundo paso de esta validación es analizar los parámetros estadísticos descritos en la 
sección de Materiales y Métodos. Valores de R?cercanos a 1 indican un ajuste óptimo del 
modelo. Valores altos para Q? ¿y Q% yo Y Q,, aseguran una buena predictibilidad. Valores 
bajos para los parámetros de la prueba de scrambling demuestran que el modelo 
no realiza sus predicciones aleatoriamente. Los descriptores moleculares, parámetros 
estadísticos y ecuación de los modelos M_4_LR y M_13 se muestran en las Tablas 9-10. 
Adicionalmente, se realizó una prueba de Tropsha para la validación de dejar uno fuera 
y para la validación externa. Los resultados de las pruebas para los modelos M_4_LR y 
M_13 están tabulados en las Tablas 12-13. Finalmente, las Figuras 4-5, muestran una 
buena correlación lineal entre los valores de logBCF experimentales versus los valores 
calculados tanto para el conjunto de entrenamiento como de prueba. 


Tabla 12. Criterios de validación de la prueba de Tropsha para M_4_LR. 


M_4_LR 


¡EA Validación de dejar uno fuera Validación externa 


R2>0,6 0,9154 Pasa 0,9154 Pasa 
R?,>0,5 0,8944 Pasa 0,9119 Pasa 

(A, RR ,<0,1 0 Pasa 0,0005 Pasa 
(SO! 0,0056 Pasa 0,0145 Pasa 
abs(R”R?,)<0,1 0,005 Pasa 0,0127 Pasa 
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M_4_LR 


mm 
el A ¡AA Validación de dejar uno fuera Validación externa 
en ciencias e 
ia Criterio Resultado Evaluación Resultado — Evaluación 


0,85<k<1,15 0,9995 Pasa 0,9987 Pasa 


0,85<k'<1,15 0,997 Pasa 0,9994 Pasa 


Tabla 13. Criterios de validación de la prueba de Tropsha para M_13. 


M_13 


[AA Validación de dejar uno fuera Validación externa 


terio Resultado Evaluación Resultado Evaluación 


R2>0,6 0,9375 Pasa 0,9375 Pasa 
R?,>0,5 0,9155 Pasa 0,844 Pasa 
(RRA, <0,1 -0,0001 Pasa 0,0036 Pasa 
(A, R?J/A?,<0,1 0,0062 Pasa 0,0136 Pasa 
abs(R*,-R”,)<0,1 0,0058 Pasa 0,0085 Pasa 
0,85<k<1,15 0,9984 Pasa 0,9919 Pasa 
0,85<k'< 1,15 0,9989 Pasa 1,0044 Pasa 

7 

6 


5 e Set de entrenamiento 
O Set de prueba 

-0- Set de entrenamiento 

-8- Set de prueba 


exp 


L . 
3 4 
3 
R2=0,9154 
04=0,9119 
2 
1 
2 3 4 5 6 7 


logBCF 


Calc 


Figura 4. BCF experimental versus BCF calculado con M_4_LR para el set de entrenamiento y el set de prueba. 
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Figura 5. BCF experimental versus BCF calculado con M_13 para el set de entrenamiento y el set de prueba. 


CONCLUSIÓN 


En el presente estudio, se realizó un modelado RCEA del logBCF de los PCBs utilizando 
técnicas de aprendizaje de máquina. Dos modelos robustos, construidos a partir de 
descriptores topológicos, se escogieron según los parámetros estadísticos de las 
pruebas de validación externa e interna. M_4_LR es un modelo de 2 descriptores 
con R'= 0,9154, Q? ¿¿= 0,8944, y Q”,,,= 0,9119. M_13 es un modelo de 4 descriptores 
con R*= 0,9375, Q? ¿¿= 0,9155, y Q?,,= 0,844. Ambos modelos pasaron todos los 
criterios de la prueba de Tropsha. Por un lado, M_4_LR destaca por su predictibilidad 
para la prueba de validación externa. Por otro lado, M_13 presenta una mejor ajuste 
debido a que su valor de R? es mayor. Los resultados del estudio son evidencia 
sólida para demostrar que los descriptores topográficos 2D y 3D, calculados para la 
estructura optimizada en el nivel de mecánica molecular, son variables muy útiles 
para la construcción de modelos de regresión que podrían ser usados para predecir 
el valor de logBCF. 
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